SimpleTIR:让大模型“边写代码边思考”不再崩溃 “在某个样本中,模型第1 轮思路清晰,第 2 轮开始胡言乱语,第 3 轮直接输出一堆乱码。训练到后期,模型性能像过山车一样垂直下坠。” 模型 代码 rl simpletir 可执行代码 2025-09-11 19:45 3